DAY19 語音辨識前端之前言—下

2023 iThome 鐵人賽

DAY 19

AI & Data

AI與語音辨識系列第 19 篇

15th鐵人賽

meooooow

2023-10-04 09:05:49

900 瀏覽

分享至

早上好呀！

昨天稍微淺談一下框架及內容，今天繼續介紹完整！

正文繼續

AEC演算法的作用是消除本地麥克風擷取到的從揚聲器中播放出來的遠端音訊訊號。一個典型的例子是，在智慧喇叭中，有些場景需要在播放音樂或語音的同時辨識使用者指令。由於此時麥克風擷取到的聲音是目標語音和揚聲器聲音（俗稱回音）的混合，因此需要AEC來消除回音並恢復純淨的目標語音。為了達到好的效果，AEC模組需要將揚聲器播放的音訊訊號作為輸入。

降噪又稱語音增強，主要作用是從語音訊號中去除雜訊，並盡量恢復原始的純淨語音。實際環境中的雜訊可以分為平穩雜訊和非平穩雜訊兩類。平穩雜訊是指統計特性比較穩定或隨著時間變化只有緩慢變化的雜訊，如風扇聲、汽車引擎雜訊等，而非平穩雜訊是指統計特性快速變化的雜訊，現實環境中各種突發的雜訊大多屬於此類。由於非平穩雜訊對語音辨識的性能有很大的影響，因此對非平穩雜訊的消除效果是評價一個降噪演算法最關鍵的部分。

近幾年，隨著演算法和硬體的不斷發展，智慧喇叭和車載智慧語音互動系統已經越來越普及，人們對遠場語音互動的需求也越來越大。在遠場語音互動場景中，隨著使用者與裝置之間距離的增加，雜訊、干擾和殘響等因素對語音品質的影響也被放大，並帶來語音辨識率的下降。傳統的單通道語音前端系統在遠場應用中並不能極佳地處理遠場語音辨識的問題。

這是因為單通道音訊沒有空間指向性，在遠場環境中無法有效地抑制干擾和雜訊的同時保留目標訊號。而麥克風陣列透過規則排列的麥克風來取多通道資料，並透過波束形成演算法和空間指向性，可以極佳地對目標，訊號進行定向增強，這不僅能抑制彌散雜訊，還能抑制方向性的雜訊和干擾。麥克風陣列和對應的演算法在遠場語音互動的普及中發揮了重要作用。在當前商用的遠場語音互動場景中，麥克風陣列的使用已經成為標準配備。

下圖是一個典型的使用麥克風陣列的多通道語音前端系統，其中除了AEC、VAD、降噪等模組，還包含波束形成、聲源定位、去殘響、增益控制等模組，而在實際的應用與場景中，模組的組合方式都會有所不同。